Build Hour: Agents SDK

OpenAI Build Hour - Agents SDK

Metadata

Source: YouTube video, OpenAI Build Hour
Speaker/context: OpenAI API team demo and Q&A about Agents SDK, hosted shell, containers, skills, and sandbox-based agents.
Transcript basis: yt-dlp English auto captions were used for the Korean analysis.

Raw Summary

이 영상은 OpenAI Agents SDK의 기능 소개와 데모를 통해, 장시간 자율 작업을 수행하는 에이전트를 제품 안에 넣기 위한 운영 구조를 설명한다. 핵심은 단순히 모델에 tool loop를 붙이는 것이 아니라, Codex 스타일 하네스, 샌드박스 실행환경, 파일시스템 스냅샷/재수화, Skills, memory, hosted shell, container network policy, human approval을 하나의 에이전트 운영 레이어로 엮는 것이다.

데모에서는 agentic task tracker를 만들며 샌드박스 내부의 파일 상태를 저장하고 다음 세션에서 재수화하는 흐름을 보여준다. 또한 task 상태를 완료 처리하는 행동에는 사람 승인을 요구해, 에이전트가 자동 실행하더라도 중요한 상태 변경에는 approval boundary를 둘 수 있음을 보여준다.

Key Claims

프로덕션 에이전트는 단순 LLM API 호출 루프보다 더 많은 운영 계층이 필요하며, Agents SDK는 web search, file search, MCP, code interpreter, skills, sandbox use 등을 orchestration layer로 제공한다.
하네스와 컴퓨트를 분리하면 샌드박스를 임시 실행환경으로 취급할 수 있어, 컨테이너 종료·만료·장애 시에도 상태를 외부 하네스/저장소에서 재수화할 수 있다.
샌드박스에 비밀키를 넣지 않는 구조는 prompt injection과 secret exfiltration 위험을 줄이는 데 중요하다.
장시간 작업 에이전트의 continuity는 대화 기록만이 아니라 파일시스템 스냅샷과 작업 디렉터리 상태까지 포함해야 한다.
Skills는 반복 가능한 작업 지침과 스크립트 묶음이며, 중앙 저장소/API에서 버전 관리할 때 조직의 작업법을 에이전트 실행 자산으로 만들 수 있다.
Hosted shell/containers는 Responses API 요청에서 파일을 넣고 임시 컨테이너에서 모델이 코드를 실행한 뒤 결과를 반환하는 경량 샌드박스 패턴이다.
Container network allowlist/no-egress 설정은 에이전트가 외부 네트워크를 사용할 때 필요한 보안 통제 지점이다.
Human approval은 에이전트가 초안·실행 준비를 하되 중요한 상태 변경이나 외부 효과가 있는 행동은 사람 승인을 거치게 하는 제품 설계 요소다.

Extracted Concepts

[Agent Harness](/notes/30-concepts__Agent Harness/)
[Ephemeral Agent Sandbox](/notes/30-concepts__Ephemeral Agent Sandbox/)
[Agent Skill](/notes/30-concepts__Agent Skill/)
[Human Approval Boundary](/notes/30-concepts__Human Approval Boundary/)
[Agent Memory](/notes/30-concepts__Agent Memory/)

Caveats / Limits

영상은 데모 중심이라 실제 운영에서 필요한 비용 통제, 실패 복구, 감사 로그, 민감정보 마스킹, 장기 스냅샷 보관 정책은 깊게 다루지 않는다.
제품/SDK 발표 맥락이므로 일부 기능의 안정성·제약은 실제 API 문서와 구현 상태로 별도 확인해야 한다.
자동자막 기반 분석이므로 세부 표현에는 전사 오류 가능성이 있다.

Open Questions

장시간 에이전트 작업의 스냅샷은 어느 주기와 보존 기간으로 관리해야 비용과 감사 가능성을 균형 있게 맞출 수 있는가?
조직 지식이 Skills로 이동할 때, 어떤 변경은 코드 리뷰/승인을 요구해야 하는가?
외부 효과가 있는 업무에서 approval boundary를 어디에 둘 때 자동화율과 안전성이 가장 잘 균형을 이루는가?

Links Created

[Agent Harness](/notes/30-concepts__Agent Harness/)
[Ephemeral Agent Sandbox](/notes/30-concepts__Ephemeral Agent Sandbox/)
[Agent Skill](/notes/30-concepts__Agent Skill/)
[Human Approval Boundary](/notes/30-concepts__Human Approval Boundary/)
[Production agents need recoverable failure boundaries](/notes/20-insights__Production agents need recoverable failure boundaries/)
[Skills turn organizational know-how into executable agent assets](/notes/20-insights__Skills turn organizational know-how into executable agent assets/)

개인지식 시스템